常见问题
OneAgent 中的 ebpf-agent
始终处于未就绪状态,日志中显示“自动适配失败”且无法从远端获取到适配文件
OneAgent 中的 ebpf-agent
基于 eBPF 技术获取北极星指标,该 agent 需要基于 eBPF 程序运行,eBPF 程序是基于特定的 Linux 内核版本的开发文件编译的。ebpf-agent
已经支持了常见的内核版本,但由于内核版本众多,无法保证所有的版本都支持,因此 ebpf-agent
如果遇到尚未支持的内核版本,会尝试自动编译该内核版本的 eBPF 程序。要使自动编译过程成功,请参考文档解决ebpf-agent始终未就绪问题。
OneAgent 部署完成后 APO 平台中并未显示服务信息的常见原因
平台未显示服务数据问题可以根据下方流程逐一排查较为常见的原因:
1. Kubernetes 版本请确认探针配置中的命名空间被正确配置
被配置为注入目标的命名空间中的Deloyment资源均会被打上odigos-instrumentation=enabled
的Label,请参考文档监控 Kubernetes 集群的服务器和应用使用OneAgent定制探针版本中的《配置 APO-one-agent 组件》小节。
OneAgent 部署完成并成功处于运行状态,且确认目标的Deloyment资源被打上odigos-instrumentation=enabled
的Label后,需要手动重启服务应用以便注入监控探针
2. 传统服务器版本请确认探针配置
执行java --version
,预期会看到您的 APO-one-agent 为您自动打上探针,如果您只看到java --version
普通输出,请检查您的部署。
3. 确认被监控服务是否有请求
确认重启被监控服务应用以便注入监控探针,确认监控服务处于运行状态且有请求来产生监控链路数据。
4. APO 向导式可观测平台的时间选择器
重启后服务需要有请求访问被监控服务以自动产生Metrics与Trace数据用于平台的监控服务展示。 确认您的服务被打上探针以及有请求后,您需要在APO的平台前端页面展示右上角的时间选择器中选择正确的展示时间段,以展示正确的时间段数据
注意: 时间选择器中的时间段不跟随浏览器页面刷新亦或者重启而改变。
云服务商集群创建数据库失败
部分云服务提供商的持久化卷(PV)自动创建工具并不允许组件在持久化卷中执行chmod
和chown
命令导致数据库组件启动失败;
解决思路:
- 给予宿主机的持久化卷路径文件夹pod操作权限。
- 配置数据库跳过初始化中的
chmod
和chown
相关执行,例如 Clickhouse 可以通过配置环境变量CLICKHOUSE_DO_NOT_CHOWN=1
来跳过相关命令的执行。 - 根据《生产环境部署建议》将数据库托管。